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摘要 : [目的 /意义 ] 为 提高 引证 检索 服务 效率 ,方便 科研 人 员 自 助 查 询 收 录 引 证 报告 ,扩展 机 构 知 识 库 提 
供 的 科研 评价 服务 功能 ,开发 基于 机 构 知 识 库 CSpace 系统 的 查收 查 引 功能 。[ 方 法 /过 程 ] 对 人 工 查 收 查 引 服 
务 的 关键 流程 和 细节 问题 进行 调研 ,提出 机 构 知 识 库 扩展 查收 查 引 功能 的 必要 性 ,设计 功能 实现 流程 图 ,实现 
科研 成 果 显 示 、 收 录 类 型 和 引用 次 数 、 他 引 次 数 统计 、 施 引文 献 和 SCI、EI、CSCD 等 详细 信息 导出 功能 。[ 结果 / 
结论 ] 基于 机 构 知 识 库 的 查收 查 引 功能 经 过 测试 和 评估 ,可 以 达到 95% 以 上 的 收录 引用 准确 率 , 相 比 人 工 检 
索 ,服务 效率 提高 明显 ,可 以 帮助 图 书馆 节省 人 力 资源 约 75% 。 真 正 实 现 机 构 知 识 库 对 查收 查 引 服务 的 有 效 


支撑 。 
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查收 查 引 是 检索 机 构 根 据 用 户 需 求 ,在 国内 外 权 
威 数据 库 中 检索 其 论文 被 收录 和 引用 情况 ,以 证 明 其 
冬 确 能 力 和 水 平 而 开展 的 信息 咨询 服务 。 具 体 来 说 ， 
是 通过 作者 姓名 、 单 位 期 刊 名 称 及 卷 期 会议 信息 、 篇 
得 要 途径 ,查找 论文 被 SCI( Science Citation Index) .SS- 
CIKSocial Science Citation Index) .A&HCI( Arts Humani- 
tieECitaion Index) .EI ( The Engineering Index) .CPCI 
司 社会 科学 
引文 索引 数据 库 ( Chinese Social Sciences Citation In- 
dex, CSSCI) .中 国 科学 引文 数据 库 (Chinese Science 
Citation Database，CSCD ) 等 权威 数据 库 收录 及 被 引用 
情况 ,并 根据 检索 结果 出 具 检 索 证 明报 告 。 收 录 引 证 
报告 作为 课题 申报 、 职 称 评定 等 的 重要 参考 依据 。 
通过 笔者 调查 发 现 ,目前 大 多 数 图 书馆 开展 的 引 
证 检索 服务 ,是 通过 委托 人 提供 查收 查 引 委托 单 ,工作 
人 员 手 动 检 索 指 定 的 数据 库 查询 委托 人 提供 的 论文 ， 
并 对 下 载 数 据 进 行人 工整 理 与 统计 ,最 后 形成 引证 报 
告 。 以 兰州 大 学 图 书馆 为 例 ,2013 - 2016 年 平均 每 年 
做 引证 检索 报告 500 份 ,每 份 报告 少 则 花费 几 小 时 完 


(Caference Proceedings Citation Index) .中 


成 ,多 则 一 天 甚至 两 天 才能 完成 ,尤其 在 检索 高 峰 期 ， 
则 需要 更 多 的 时 间 。 这 项 工作 重复 性 高 ,效率 较 低 、 花 
费 大 量 的 劳力 和 时 间 , 即 无 法 满足 用 户 的 全 部 需求 ,也 
影响 服务 质量 。 因 此 ,利用 计算 机 程序 在 线 完 成 查收 
查 引 流程 中 的 论文 清单 提交 论文 被 收录 、 引 用 及 他 引 


次 数 统计 、 引 证 报告 自动 导出 等 工作 成 为 查收 查 引 工 
作 的 必然 发 展 趋势 。 


2 引证 检索 服务 现状 与 机 构 知识 库 扩 展 


查收 查 引 功能 的 必要 性 


2.1 引证 检索 服务 现状 

查收 查 引 是 我 国 图 书馆 独 具 特 色 的 服务 项 目 ,人 
工 引 证 检索 服务 主要 由 10 个 步骤 组 成 … ,分 别 为 : 委 
托 单 接受 和 确认 、 论 文清 单 核查 .检索 任务 分 工 .论文 
收录 检索 .论文 引用 检索 .检索 结果 格式 整理 .检索 结 
果 统 计 、 检 索 报告 撰写 .用户 核 查 报告 .费用 支付 和 报 
告 领取 。 该 服务 步 又 繁琐 ,效率 较 低 , 且 工作 过 程 中 存 
在 多 库 检 索 耗 时 耗 力 .检索 结果 整理 繁琐 .检索 结果 不 
能 重复 使 用 检索 报告 不 能 自动 生成 等 主要 问题 ”1。 

在 机 器 辅助 引证 检索 服务 方面 , 查 新 机 构 做 出 了 
大 量 的 实践 研究 。 清 华 大 学 最 早 研发 了 代 查 代 检 服务 
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系统 ”。 北 京 大 学 图 书馆 的 李晓东 、 卢 振 波 2005 年 提 
出 通过 工具 软件 实现 作者 论文 数据 的 采集 .自动 检索 
和 自动 下 载 等 功能 ,但 未 对 查收 查 引 系统 进一步 设计 
与 实践 ”。 攀 亚 芳 等 提出 利用 Excel 的 筛选 功能 和 
EndNote Web .NoteEpress 等 文献 管理 软件 辅助 手工 检 
索 和 实现 对 自 引文 献 的 批量 去 除 、 他 引文 献 列 表 的 格 
式 化 输出 、 以 及 总 他 引 次 数 .引用 期 刊 种 数 和 作者 人 数 
的 统计 5-7 ,该 方法 可 辅助 人 工 检索 提高 服务 效率 。 
在 查收 查 引 业 务 流程 自动 化 管理 方面 ,山东 大 学 的 师 
晓 青 9 设计 并 构建 了 基于 B/S 架构 的 高 效 图 书馆 查 
收 查 引 检索 系统 ,详细 规划 和 设计 了 6 个 角色 用 户 的 
权限 和 主要 功能 ,用 户 可 以 在 线 提交 检索 申请 书 ,检索 
员 可 对 报告 进行 管理 ,审核 员 可 对 报告 审核 .归档 保 
存 一 徐 世 妍 "提出 引入 JBPM 工作 流 技术 设计 全 新 的 
查收 查 引 综 合 服务 平台 ,这 两 系统 的 优势 是 流程 自动 
足 之 处 是 查收 查 引 的 关键 检索 功能 .报告 生成 等 
岗 自动 化 。 北 京 邮电 大 学 图 书馆 的 严 潮 斌 、 陈 嘉 
现 到 ”等 提出 了 将 查收 查 引 服务 融和 人 机 构 知 识 库 生 态 


图 的 观点 ,以 查收 查 引 为 灵感 ,自主 研发 机 构 知识 库 ， 
现 文献 与 作者 之 间 的 精准 关联 机 制 ,能 够 精准 关联 
者 被 收录 和 引用 的 文献 列表 ,但 在 查收 查 引 工作 


的 台 据 问题 方面 存在 不 准确 性 ,需要 到 数据 库 中 实际 
验证 ,是 没有 实现 引证 报告 自助 导出 等 功能 。 
.全 CALIS 技术 中 心 与 北京 大 学 图 书馆 上 针对 论文 收 
懂 括 引用 联合 开发 了 一 款 CALIS 论文 收录 及 引用 检索 
系 绕 。 该 系统 基本 完成 了 手工 查收 引证 10 个 步 又 中 
的 天 个 ,除了 委托 单 的 接受 和 确认 ,论文 清单 初步 检查 
和 和 崩 户 核查 报告 仍 需 要 传统 方式 。 该 系统 经 过 6 轮 测 
试 和 近 半 年 的 试用 改进 ,基本 满足 高 校 图 书馆 的 需求 ， 
极 大 缓解 了 人 力 资源 紧张 。 目 前 已 有 150 多 家 大 学 图 
书馆 开通 试用 ,包括 7 所 *985" 高 校 ,正式 购买 用 户 19 
家 。 但 论文 清单 提交 和 接收 需要 手工 完成 ,检索 报告 
没有 期 刊 影响 因子 ,没有 统计 委托 人 为 第 一 作者 的 文 
献 数 等 更 多 信息 。2011 年 底 ,中 国 科学 院 软件 研究 所 
研发 了 “引证 报告 自动 生成 原型 系统 ”, 王 学 勤 "-" 等 
在 原型 系统 的 基础 上 进行 优化 ,增强 了 数据 预 处 理 功 
能 和 算法 ,增加 了 检索 数据 源 、 人 机 交互 模块 及 自 引 排 
除 等 功能 模块 。 该 系统 经 测试 评估 工作 效率 ,准确 率 、 
稳定 性 都 达到 了 预期 的 目标 , 且 已 在 中 国 科 学 院 文献 
情报 中 心 部 署 使 用 ,效果 整体 良好 。 但 仍 需 完善 用 户 
并 发 控制 .用户 权限 管理 ,中文 及 会 议论 文 引用 检索 、 
生成 多 格式 报告 等 功能 。 

针对 已 有 查收 查 引 系统 存在 需要 手动 提供 委托 
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单 .缺乏 期 刊 影响 因子 等 评价 指标 、 对 中 文 检索 效果 不 
佳 等 问题 ,笔者 开发 了 基于 机 构 知 识 库 (Institutional 
Repository ,IR ) 的 查收 查 引 功能 模块 。 选 择 具 有 代表 
性 的 CALIS 收录 引用 检索 系统 、 中 国 科学 院 ( 以 下 简 
称 “ 中科院 ”) 开 发 的 引证 报告 自动 生成 系统 与 笔者 
开发 的 IR 查收 查 引 功能 模块 从 服务 模式 、 开 发 方式 、 
检索 效果 、 实 现 功能 及 应 用 效果 等 方面 进行 比较 分 
析 , 见 表 1。 
2.2 IR 扩展 查收 查 引 功能 的 必要 性 

IR 作为 很 多 高 校 和 科研 机 构 保 存 管理 科研 知识 
成 果 的 重要 手段 ,经 过 多 年 的 建设 和 维护 ,积累 了 一 定 
的 学 术 资 源 。 如 何 提 升 IR 系统 对 高 校 和 科研 机 构 的 
科研 成 果 评 价 服 务 成 为 未 来 发 展 面临 的 重要 课题 。 下 
面 列 出 IR 扩展 查收 查 引 功能 的 必要 性 和 有 利 条 件 。 
首先 ,IR 中 存 缴 了 本 机 构 作 者 的 大 量 学 术 成 果 的 
元 数据 ,为 查收 查 引 奠定 了 良好 的 数据 基础 。 在 建设 
初期 ,元 数据 主要 通过 专业 平台 批量 导入 ,英文 数据 库 
包括 Web of Science 、EI 等 收录 的 期 刊 论 文 和 会 议论 
文 ,中 文 数据 库 包 括 CNKI、CSCD、CSSCI。IR 也 通过 
Science Router 提供 学 术 资 源 自动 采集 服务 ,支持 从 大 
型 主流 学 术 资源 库 中 采集 机 构 公 开发 表 成 果 , 并 以 接 
口 方式 共享 数据 。 学 术 资 源 库 包括 IEEE、 Springer、 
PubMed ELSEVIER .Google Scholor .CiteSeerx 等 。 且 自 
动 从 SciRouter 获取 本 机 构 最 新 产 出 数据 ,同步 更 新 批 
量 导 和 人 数据库 。 由 于 IR 存 缴 的 论文 覆盖 面 广 ,基本 涵 
盖 了 本 机 构 所 有 学 术 成 果 。 查 收 查 引 检 索 的 科研 成 果 
其 实 是 IR 的 子 集 , 对 查收 引用 户 来 说 ,无 需 提供 待 检 
索 文献 。IR 对 导入 的 元 数据 进行 规范 处 理 , 解 决 了 用 
户 提交 论文 清单 出 现 的 列表 格式 不 一 ` 数 据 不 全 等 问 


题 。 


其 次 ,IR 的 作品 认领 机 制 实现 了 作者 与 科研 成 果 
的 无 颖 匹配。IR 平台 通过 建立 作者 别名 数据 库 和 作 
者 唯一 标识 符 " ,采用 机 器 的 自动 方式 匹配 出 作品 与 
作者 之 间 可 能 的 关联 ,将 关联 信息 推送 给 相关 作者 进 
行 认领 ,并 保存 认领 结果 ,实现 了 作者 信息 和 相关 作品 
六 息 之 间 的 准确 关联 。 在 人 工 查 收 查 引 过 程 中 ,需要 
根据 论文 清单 ,按照 以 文献 标题 为 主 ,结合 作者 .期刊 
名 称 会 议 信息 ,在 指定 数据 库 进 行 收录 查证 ,对 用 户 
提交 的 待 查 文献 按 “ 首 作者 & 被 引 著作 ”进行 引用 检 
索 ,并 自动 对 检索 结果 进行 错 引 确认 ,这 个 过 程 步骤 繁 
琐 , 效 率 低 。 巩 中 可 以 实现 用 户 自助 查询 个 人 所 有 学 
术 成 果 ,引证 检索 人 员 也 可 避免 重复 检索 多 个 数据 库 。 
再 次 ,IR 与 查收 查 引 工作 相辅相成 ,互相 促进 , 且 
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表 1 查收 查 引 典型 系统 分 析 


比较 内 容 CALIS 查收 查 引 系统 中 科 院 引证 报告 自动 生成 系统 IR 查收 查 引 功能 模块 
服务 模式 在 线 试 用 /本 地 部 署 B/S B/S 
开发 方式 自行 构建 自行 构建 基于 CSpace 系统 
功能 模块 。 文献 预 处 理 。 手动 著录 和 清单 导入 (包括 委托 人 清 。 以 Word .Excel .BibTex ,EndNote 等 格式 ” 用 户 不 需 提交 文献 清单 ,IR 构建 的 数 
单 .模板 清单 和 历史 清单 ) 上 传 文献 ,支持 在 线 检索 ,规范 待 查 文 ” 据 , 作 者 认领 作品 形成 文献 列表 ,文献 
献 列表 字段 可 扩展 
收录 检索 。 操作 流畅 ,可 以 进行 原始 信息 和 检索 信 ”以 文献 标题 从 数据 库 提取 数据 ,存储 在 系 ”收录 检索 在 导 和 人 IR 过 程 中 进行 ,以 IR 
息 的 对 比 。 可 以 检索 常规 数据 库 , 包 括 ” 统 自 建 Mysql 数据 库 进行 检索 。 可 以 检 ”中 文献 对 应 的 收录 字段 进行 统计 。 收 
EI WOS .CSCD 等 索 常 规 数据 库 , 包 括 EE WOS CSCD 等 。 录 类 型 全 面 ,包括 Pubmed Medline Bi- 
对 中 文 数据 库 检索 效果 一 般 osis 等 较 多 类 型 
引用 检索 。 “提供 疑似 被 引文 献 记录 供 人 工 确认 , 自 ”以 作者 & 刊物 或 作者 & 页 码 从 SCI、 通过 SCI.CSCD 的 接口 程序 获得 被 引 、 
动 区 分 他 引 / 自 引 , 对 作者 难以 正确 区 ”CSCD 提取 数据 ,进行 人 工 错 引 、 自 引 ” 施 引文 献 采 集 存储 在 CSpace 系统 , 进 
分 的 进行 人 工 干 预 判 由 确认 行 自 引 排除 ,他 引 自动 化 计算 
报告 生成 ” ”生成 多 种 格式 的 报告 ,提供 对 引用 信息 。” 报告 格式 单 根据 模板 自动 生成 ,用 户 可 根据 需求 定 
的 “全 引 ”" 和 “只 要 自 引 ”的 选择 制 模板 
计 费 提供 校内 转帐 等 形式 的 计 费 无 无 
其 索 效 果 评 估 ” 英文 数据 库 ”原文 规范 ,系统 可 自动 匹配 收录 97% ”SCI 论文 的 收录 和 引用 准确 率 达 到 ”收录 引用 准确 率 95% 
> 以 上 ,引用 系统 匹配 率 较 低 7.42% , 需 ”90% 以 上 ,收录 )90% ,引用 )95% 
ee】 人 工 确认 匹配 92% 。 原 文 不 规范 时 系 
LO 统 会 自动 匹配 收录 80% 左右 ,对 查 引 
CN 用 正确 率 系统 匹配 45% 
© 中 文 数据 库 。 原文 规范 ,收录 正确 率 100% ,引用 正 中文 数 据 库 未 评估 收录 引用 准确 率 98% 
© 确 率 系统 匹配 达到 62% 。 原 文 不 规 
co 范 ,收录 正确 率 94% , 引用 系统 匹配 
SS 90% ,剩余 需 人 工 确认 匹配 
CR 应 用 效果 支持 多 进程 .多 任务 并 行 ,可 同时 处 理 ”经 过 3 次 系统 改版 和 两 次 引证 查询 高 峰 ”支持 多 用 户 , 多 进程 同时 处 理 , 节省 图 
CN 多 个 数据 库 的 检索 ,允许 中 英文 文献 同 ”期 的 检验 。 安 装 在 中 国 科 学 院 文献 情报 ”书馆 人 力 资源 75% 。110 多 家 研究 所 
© 步 检索 ,检索 总 耗 时 为 手工 的 1/3。 ”中 心 ,每 年 出 具 检索 报告 750 份 。 收 录 引 和 20 多 所 高 校 图 书馆 (安装 部 署 且 升 
QQ 150 多 家 大 学 图 书馆 开通 试用 ,包括 7 ”用 准确 率 达 到 90% 以 上 ,对 50 篇 以 上 文 ”级 到 机 构 知识 库 CSpace6.0 系统 ) 
所 985 高 校 ,19 所 高 校正 式 购买 使 用 。 ” 献 , 最 大 工作 效率 达 260% ,不 支持 多 用 
> 户 并 发 控制 .用户 权限 管理 。 
所 名 大 的 数据 导出 功能 。 高 校 图 书馆 查收 查 引 服务 CSCD EI 等 。IR 的 论文 发 表 期 刊 分 布 分 析 中 ,期 刊 的 


用 客 群 基本 固定 ,会 存在 委托 人 几 年 内 连续 多 次 委托 
得 渍 ,或 者 同一 用 户 更 新 论文 清单 的 收录 引用 情况 。 
由 鳍 图 书馆 手工 操作 流程 的 弊端 ,报告 更 新 相当 于 重 
新 检索 ,不 但 增加 了 重复 检索 的 费用 , 且 不 能 满足 用 户 
快速 获得 报告 的 需求 。IR 中 的 查收 查 引 功能 较 好 解 
决 图 书馆 和 用 户 面临 的 这 些 问 题 。 对 于 IR 建设 者 来 
说 ,查收 查 引 不 再 是 一 次 性 的 重复 劳动 ,通过 查收 查 引 
工作 ,可 以 补充 IR 中 暂时 没有 收录 的 作品 ,督促 作者 
和 IR 建设 者 来 更 新 数据 。 

最 后 ,IR 可 促进 查收 查 引 服务 综合 多 样 化 。 查 收 
查 引 作为 科技 评价 的 重要 手段 之 一 ,常用 的 指标 为 收 
录 篇 数 .引用 次 数 及 他 引 次 数 。 为 使 查收 查 引 由 简单 
评价 向 综合 评价 发 展 ,需要 评价 指标 的 综合 多 维 化 ,IR 
提供 的 学 科 分 析 支 持 服务 ,评价 指标 较 全 面 。 其 中 , 科 
研 成 果 有 是 否 为 A 类 论文 ESI 高 被 引 论文 .高 热点 论 
文 等 ;收录 类 型 包括 SCIE、SSCI、 A&HCI、 PUBMED、 
MEDLINE BIOSIS CPCI -S、ESI、CPCI -SSH 、CSSCI、 


型 。 
定 了 良好 的 基础 。 


配置 项 有 JCR 分 区 .CAS 分 区 JCR 影响 因子 、 期 刊 类 
这 些 元 数据 为 促进 查收 查 引 服务 的 综合 多 样 化 英 


上 述 因素 构成 IR 中 扩展 查收 查 引 功能 的 重要 依据 。 
3 IR 中 查收 查 引 功能 框架 与 实现 


3.1 


设计 思路 及 功能 框架 


笔者 基于 中 科 院 IR 系统 已 有 的 资源 及 其 存储 结 


构 ,结合 


目前 查收 查 引 服务 的 自动 化 需求 ,设计 开发 了 
IR 中 的 自助 导出 收录 引证 报告 功能 , 旨 在 为 科 
评价 提供 有 效 支 撑 。 了 琢 的 收割 、 存 缴 论 文 机 制作 品 
认领 机 制 ,可 实现 显示 用 户 论 文清 单列 表 。 提 取 查 收 


人 研 成 果 


查 引 中 科研 成 果 需 要 的 主要 字段 ,可 以 根据 用 户 需求 
扩展 字段 。IR 中 论文 的 收录 类 别 字段 是 提交 期 刊 论 
文 和 会 议论 文 原 数 据 信息 时 默认 采集 的 ,在 资源 建设 
的 过 程 中 对 该 原 数据 的 采集 重视 度 较 高 ,数据 质量 较 
好 , 且 IR 对 一 篇 文献 被 多 个 数据 库 重复 收录 的 情况 进 
行 了 查 重 处 理 ,在 条 目 导入 数据 库 的 时 候 ,首先 进行 题 
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名 + 作者 匹配 查 重 ,如 果 条 目 重复 , 则 添加 相应 的 收录 
类 型 到 收录 类 别 字 段 。 例 如 ,兰州 大 学 及 中 有 一 篇 论 
文 同时 被 SCIE 、EI、PubMed、Medline .BIOSIS .CSCD 数 
据 库 收录 ( 见 图 1) ,收录 类 别 超出 查收 需求 。 如 手工 
去 检索 ,需要 检索 5 个 数据 库 平台 ,工作 人 员 因 为 只 习 
惯 使 用 一 两 种 检索 式 进 行 检索 ,工作 量 倍增, 且 容 易 发 
生 漏 检 的 情况 。IR 通过 查 重 匹配 ,收录 类 型 全 面 , 既 
提高 了 查 准 率 , 也 提高 了 查 全 率 , 保 证 查收 功能 自动 化 
实现 的 可 行 性 。 


EN 


兰州 大 学 机 构 库 > 资源 环境 字 院 > 期 刊 论文 


题名 : Combined effects of elevated temperature and CO2 concentration on 不 料 脾 和 
， 进 琴 这 务 目 
”保存 到 收 项 实 


Cd and Zn accumulation dynamics in Triticum aestivum L. 


其 他 题名 : Combined effects of elevated temperature and CO2concentration on 
Cd and Zn accumulation dynamics in Triticum aestivum L. 


» Endnote 导 出 


IR 查收 查 引 功能 框架 ,该 功能 由 两 个 模块 组 成 ， 
即 作者 文献 列表 显示 模块 和 导出 引证 报告 模块 ,这 两 
个 模块 基本 实现 了 数据 预 处 理 .收录 引用 检索 统计 、 报 
告 生 成 等 功能 。 且 都 依赖 于 IR 系统 的 完整 数据 结构 。 
IR 底层 的 数据 来 源 包括 了 WOS 、EI、CSSCI、CSCD、 
CNKI 等 数据 库 平 台 , 以 及 Web of Science .CSCD 提供 
的 被 引 频 次 接口 程序 。 见 图 2。 
3.2 关键 功能 实现 
IR 中 查收 查 引 功能 模块 实现 了 作者 文献 列表 即 
数据 预 处 理 功 能 、 论 文 收录 引证 检索 功能 、 
施 引 文献 采集 及 他 引 / 自 引 区 分 功能 、 引 证 
报告 导出 功能 。 作 者 论文 清单 列表 见 图 3。 


作者 : Wang, Xiaoheng; Li, Yu; Lu, Hong; Wang, Shigong 
收录 类 别 ; SCIE ; EI ; PubMed ; MEDLINE ; BIOSIS ; CScD Altmetrics Score 证 统计 表 包 含 了 了 JCR 影 响 子 .SCI 被 引 
出 版 日 期 : 2016-09 
th Le © 次 数 .CSCD 被 引 次 数 、 及 论文 题名 \ 作 者、 来 
着 号 : 47， 页码: 109-119 Google Schola! 站 ~ ~ » 
二 ee ee 源 其 刊 , 发 表 时 间 等 主要 字段 。 
出 版 者 ; > se ~ WE 
To 9 人 工 统计 收录 总 篇 数 . 总 引用 次 数 的 步 
全 TPR 又 主要 是 :通过 从 数据 库 导出 要 查询 的 论 
二 州 太 子 订 细 恒 局 
与 文 , 摘 取 相应 的 字段 , 填 人 检索 结果 表单 中 ， 
图 
©O 
CD 机 构 知 识 库 自助 收录 
CN 引证 查询 功能 
©O 
CN 
加 图 
> 作者 文献 列表 (包括 
ei 期 刊 论文 、 会 议论 文 、 导出 引证 检索 报告 
> < 专著 、 专 利 等 内 容 类 型 
© 
Ce 1 一 一 一 一 一 一 一 一 一 一 一 一 上 -ee 
1 scr 收 录 | | 本 收 录 | | cscp 施 引 查询 | | 个 人 引证 | 1! 
情况 情况 收录 情况 文献 报告 统计 表 | | 
| 
| 
= 
引用 次 数 他 引 次 数 
a 统计 | 
1 
1 
Ls 


收割 、 存 缴 权威 
数据 库 元 数据 


2 ”IR 中 查收 查 引 功能 框架 
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个 人 作品 引证 统计 表 帮助 


3 IR 中 作者 个 人 作品 引证 统计 表 


借助 EXCEL 得 出 总 被 引 次 数 。IR 统计 总 被 引 次 数 ， 
只 需 提 交 文献 ,后 台 程序 自动 计算 总 被 引 , 有 较 高 的 效 
率 和 准确 率 。 

(1) 施 引文 献 信息 采集 处 理 功能 实现 。 引 证 检索 
搜 轨 中 的 施 引 文献 数据 量 较 大 ,如 文献 的 被 引 次 数 小 
3 了 800 , 则 检索 和 导出 施 引文 献 相 对 容易 。 但 对 个 别 
区 碳 被 引 次 数 达 到 几 千 次 ,如 兰州 大 学 物理 科学 与 技 
龙 尝 院 耿 柏 松 教师 有 一 篇 论文 被 引 次 数 达 到 1 144 
WE 让 于 WOS 平台 的 条 数 限制 (每 次 最 多 标记 50 条 ) ， 
扎 动 下 载 需要 翻 页 23 次 。IR 导出 引证 检索 报告 实现 
敬告 施 引 文献 的 自动 获取 ,通过 对 了 数据 库 中 条 目的 
元 多 据 字段 wos_citing_url( 施 引文 献 URL ) 进行 分 析 ， 
送 是 网 页 信 息 提取 技术 , 即 从 HTML 页 面 找到 描述 文 
献 的 网 页 元 素 , 并 提取 出 相应 的 数据 内 容 。 采 用 
Jqiery 技术 ,获得 所 有 施 引 文献 总 数 及 元 数据 字段 , 包 
括 感 名 作者 .WOS 记录 号 .来 源 期 刊 等 信息 。 为 解决 
导 侯 施 引 文献 速度 较 慢 ,笔者 设计 了 定时 任务 ,将 URL 
抓 玫 到 的 施 引 文献 信息 存 人 IR 自 建 数据 库 ,大 大 提高 
了 部 出 施 引 文献 效率 。 

(2) 他 引 和 自 引 区 分 功能 实现 。 在 文献 引证 检索 
服务 工作 中 ,他 引 被 用 作 科技 成 果 影 响 力 评价 的 主要 
指标 ,通过 排除 论文 自 引 而 获得 。 自 引 排除 方法 一 般 
有 排除 一 个 作者 既 被 检索 作者 ,排除 团体 作者 ,排除 论 
文 全 部 作者 。 本 研究 中 采用 的 他 引 计 算 方 法 为 严格 他 
引 , 既 排除 论文 全 部 作者 。IR 对 论文 的 施 引 文献 进行 
采集 ,存储 的 字段 包括 作者 ,作者 单位 等 信息 。 且 施 引 
文献 与 原文 献 都 来 自 Web of science 数据 库 平台 ,作者 
是 用 全 名 匹配 ,对 个 别 全 名 不 规范 的 作者 ,在 数据 库 中 
进行 规范 处 理 。 他 引 次 数 计算 实现 流程 见 图 4。 


4 ”查收 查 引 功能 测试 和 效果 评估 

IR 系统 的 查收 查 引 功能 实现 以 后 ,笔者 从 时 效 
性 ,稳定 性 ,收录 引用 正确 率 3 个 方面 对 该 功能 进行 了 
测试 和 评估 。 选 取 的 测试 数据 是 兰州 大 学 IR 已 建 好 


文献 所 有 作者 存 人 本 答 环 获取 下 引 文责 1 
数组 A 的 所 有 作者 存 人 数组 B 


相同 作者 单位 是 否 
相同 


[lu | 


施 引 文献 为 他 引 自 引 人 工 干预 判断 


4 他 引 次 数 计算 流程 


的 资源 ,涵盖 学 科 有 物理 、 化 学 `. 生 物 、 经 济 等 重点 学 
科 。 测 试 论文 总 篇 数 12 524 篇 ， 其 中 被 SCIE EI 共同 
收录 的 论文 7 216 篇 .CSCD 收录 论文 3 805 篇 、CSSCI 
收录 论文 1 259 篇 .CPCI-S 收录 论文 234 篇 ,SSCI 收录 

论文 10 篇 。 涉 及 兰州 大 学 学 者 356 位 。 其 中 ,SCIE 收 
录 论 文 被 引 次 数 最 高 为 1 168 ,CSCD 被 引 频 次 最 高 为 
252。 对 中 文 数据 库 收录 的 论文 , 即 被 CSCD 和 CSSCI 
收录 的 论文 ,测试 系统 用 时 和 收录 引用 正确 率 如 表 2 
所 示 : 


表 2 中 文 文献 导出 报告 用 时 及 准确 率 


文章 数 (篇 ) 人 工 用 时 系 流 Es Rs 人 
(分 钟 ) 引用 、 导 出 报告 )(s) ”引用 正确 率 ( % ) 
20 以 内 5 -20 <5 >99 
20 -50 70 -90 <10 >99 
50 -100 120 -300 <15 >98 
100 - 150 300 -450 <30 >98 


对 于 中 文 文献 ,只 需 统计 收录 类 型 .引用 次 数 ， 和 
出 报告 只 需 导 出 CSCD 及 CSSCI 收录 详细 信息 。 
此 ,在 IR 中 速度 较 快 ,收录 详细 信息 来 自 os 
库 , 引 用 次 数 通过 接口 获得 。 对 于 100 篇 的 文献 ,导出 
检索 报告 只 需 30s 左右 , 相 比 人 工 检索 ,节省 时 间 大 约 
在 5-7 小 时 ,与 CALIS 查收 查 引 系统 相 比 ,节省 时 间 
大 约 1-2 小 时 。 收 录 引 用 准确 率 达 到 98% ,这 归功 于 
在 IR 建设 的 过 程 中 ,提交 作品 的 工作 者 对 数据 的 严格 
把 控 和 规范 。 而 CALIS 查收 查 引 系统 对 中 文 文献 的 收 
录 引 用 准确 率 在 原文 规范 的 情况 下 很 高 ,而 在 原文 不 
规范 时 系统 自动 匹配 准确 率 只 有 90% 左右 , 查 引 用 准 
确 率 低 于 收录 准确 率 ,大 约 10% 左右 的 文献 需 人 工 确 
认 匹 配 。 

在 英文 文献 导出 报告 时 , 则 需要 花费 较 多 时 间 ,对 
SCIE 收录 论文 需 计算 他 引 次 数 及 导出 施 引 文献 ,英文 
文献 导出 报告 花费 时 间 及 准确 率 如 表 3 所 示 : 
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表 3 英文 文献 导出 报告 用 时 及 准确 率 


系统 用 时 (统计 收录 、 


总 被 引 次 数 。 人 方便 。。 引用 ,他 引 , 导 出 施 。 专人 
引文 献 等 )(S) 
<10 5-10 8 -10 >97 
10 -50 30 -180 10 -45 >96 
50 -200 200 -750 60—180 >95 
200 -500 750 -1 500 180 -300 >95 


从 表 3 中 可 以 看 出 ,英文 文献 在 计算 他 引 次 数 和 
导出 施 引 文献 时 ,花费 时 间 相对 中 文 较 多 , 随 着 总 被 引 
次 数 的 增高 ,花费 时 间 也 在 增长 ,对 被 引 次 数 在 500 左 
右 时 ,导出 报告 花费 时 间 在 5 分 钟 左右 ,而 人 工整 理 需 
要 30 个 小 时 左右 ,中 科 院 引证 报告 自动 生成 系统 花费 
时 间 大 约 在 7 -8 小 时 。 对 被 引 次 数 最 高 达 1 168 的 论 
文 5 系统 测试 导出 报告 仅 需 10 分 钟 左右 。 而 对 收录 引 


用 准确 率 随 着 被 引 次 数 的 增多 ,会 有 所 下 降 , 因 英文 数 


L 


， 


二 会 出 现 错 引 , 需 人 工 核对 , 施 引 文献 越 多 ,出 错 的 
可 能 性 越 大 。 在 测试 12 524 篇 论文 的 收录 引证 报告 
过 移 中 ,系统 运行 稳定 。 CALIS 查收 查 引 系统 对 英文 
数据 库 的 检索 准确 率 主要 依赖 于 论文 清单 是 否 正确 规 
其 \ 刘 于 信息 有 误 的 论文 清单 或 缺失 信息 较 多 时 ,英文 
区 黄 查 收录 正确 率 系 统 自动 匹配 80% 左右 ,17% 左右 
露 工 确认 匹配 ,错误 检索 2% 左右 , 查 引 用 正确 率 
50 喉 需 人 工 确认 匹配 。 


a 


斧 下 的 查收 查 引 功能 跟 手 工 检索 相 比 , 大 大 缩短 了 
检 喜 时 间 ,提高 了 检索 效率 ,节省 大 量 劳动 力 。 且 可 以 
达到 95% 的 收录 引用 准确 率 , 能 够 满足 高 校 委托 高 峰 
期 用 户 检 索 需 求 。 与 CALIS 查收 查 引 系统 和 中 科 院 引 
正 检 索 系 统 相 比 ,精简 了 提交 委托 单 以 及 查收 引 人 员 
检索 多 个 数据 库 的 过 程 ,用 户 只 需 登 录 机 构 库 ,查询 需 
要 检索 的 论文 ,点 击 提交 就 可 完成 导出 报告 功能 。 机 
构 知 识 库 的 查收 查 引 功能 未 来 拓展 空间 较 广 , 用 户 可 
以 根据 需要 导出 需要 的 期 刊 分 区 、H 指数 等 指标 。 为 
科研 评价 的 综合 多 维 化 提供 可 能 1 

本 文 开 发 的 查收 查 引 功能 完全 依赖 于 IR, 因 此 需 
进一步 完善 解决 IR 中 资源 的 数量 和 元 数据 质量 问题 。 
针对 IR 数据 质量 存在 的 问题 , 需 从 源头 规避 ,IR 构建 
者 在 检索 数据 库 时 ,应 根据 专业 检索 人 员 的 指导 ,采用 
多 种 检索 方式 去 检索 数据 库 , 以 防 漏 检 ,规避 由 于 不 规 
范 引 用 造成 施 引 文献 检索 结果 的 不 准确 ;对 导入 IR 的 
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数据 进行 规范 处 理 ,可 及 时 更 正 数 据 库 中 的 错误 信息 ; 

机 构 用 户 认领 作品 信息 时 对 文献 详细 信息 进行 及 时 核 

对 ,对 错误 信息 修改 更 新 ;对 资源 的 实时 更 新 ,通过 iS- 

witch 接口 提高 资源 存 缴 效 率 和 完善 元 数据 质量 。 系 

统 需 进一步 完善 查收 查 引 业务 流程 自动 化 功能 ,以 更 

好 地 为 科研 评价 提供 服务 。 望 笔者 开发 的 查收 引 功能 

在 高 校 图 书馆 得 到 广泛 应 用 ,也 为 IR 的 可 持续 建设 提 

供 支 撑 。 
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Design and Implementation of Cited Reference Retrieve Function 
Based on Institutional Repository 
Liu Yanmin: Zhu Zhongming” Zhang Wangqiang” 
' Lanzhou University Library ,Lanzhou 730000 
“Lanzhou Library of Chinese Academy of Sciences ,Lanzhou 730000 

Abstract: [Purpose/significance | The paper aims to improve the efficiency of citation retrieval service facilitate 
researchers to query citation report by self-service, expand the function of scientific research evaluation service of institu- 
tional repository ，and develop the cited reference retrieve function of CSpace system based on institutional repository. 
[Method/process | It researches the key process and details of artificial service ，proposes the necessity of IR to extend 
functionality, designs the flow chart of function realize, and uses the J2EE framework to realize the function. | Result/ 
conclusion | The function has been tested and evaluated, which can achieve more than 95% of the citation accuracy. 
Compared with manual retrieval, the service efficiency is improved obviously, and the library saves about 75% of human 
resotirces. The institutional repository has realized the effective support for the investigation and retrieval service. 
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